1.3.1 심볼 그라운딩 문제 (Symbol Grounding Problem): ’사과’라는 단어(Symbol)가 실제 ‘빨갛고 둥근 과일’(Physical Object)과 어떻게 연결되는가?
1. 서론: 기호의 감옥과 실체의 부재
인공지능 연구의 역사를 통틀어 가장 근원적이며 난해한 질문은 “기계가 진정으로 ’의미(Meaning)’를 이해할 수 있는가?“라는 물음으로 귀결된다. 우리는 오늘날 제미나이(Gemini)와 같은 초거대 언어 모델(LLM)이 작성한 유려한 문장을 보며 감탄한다. 모델에게 “사과에 대해 설명해 줘“라고 요청하면, 그것은 사과의 생물학적 분류(Malus domestica), 영양 성분, 뉴턴의 만유인력 일화, 그리고 사과 파이 레시피까지 막힘없이 쏟아낸다. 텍스트의 표면적인 층위에서 이 인공지능은 ’사과’가 무엇인지 완벽하게 통달한 것처럼 보인다. 그러나 이 지점에서 우리는 인지과학적, 철학적으로 매우 엄중한 질문을 던져야 한다. 과연 이 인공지능은 ’사과’라는 단어가 지칭하는 실제 물리적 대상(Physical Object)—즉, 손으로 쥐었을 때의 매끄럽고 차가운 감촉, 한 입 베어 물었을 때 터져 나오는 과즙의 단맛, 그리고 중력에 의해 아래로 떨어지는 물리적 실체—를 진정으로 ‘아는’ 것인가? 아니면 그저 ’사과’라는 기호(Symbol)와 ‘과일’, ‘빨강’, ’맛있다’라는 또 다른 기호들 사이의 통계적 패턴을 확률적으로 계산하여 배열하고 있을 뿐인가?
이것이 바로 1990년 인지과학자 스티븐 하나드(Stevan Harnad)에 의해 정식화된 **심볼 그라운딩 문제(Symbol Grounding Problem)**의 핵심이다.1 이 문제는 형식적인 심볼 시스템(Formal Symbol System) 내의 기호들이 어떻게 시스템 외부의 물리적 세계와 내재적인(intrinsic) 의미 관계를 맺을 수 있는지를 묻는다. 만약 기호가 또 다른 기호로만 정의된다면, 이는 마치 중국어를 전혀 모르는 사람이 오직 중국어-중국어 사전만을 이용하여 중국어를 배우려는 시도와 같다.2 사전을 아무리 뒤져보아도 알 수 없는 단어는 또 다른 알 수 없는 단어로 정의되어 있을 뿐이며, 이 무한한 순환(infinite regress) 속에서 진정한 ’의미’는 결코 발생하지 않는다.
본 보고서는 제미나이와 같은 현대의 멀티모달 AI 시스템과 로보틱스 기술이 융합되는 시점에서, 이 고전적인 난제가 어떻게 재해석되고 기술적으로 해결되어 가고 있는지를 심층적으로 분석한다. 특히 ’사과’라는 구체적인 대상을 예시로 들어, 텍스트 상의 기호가 시각적 인식(Perception), 범주화(Categorization), 그리고 신체적 상호작용(Sensorimotor Interaction)을 통해 물리적 실체에 ’그라운딩(Grounding)’되는 과정을 철학적 이론과 최신 공학적 구현 사례(RT-2, OpenVLA, PaLM-E, ForceVLA 등)를 통해 낱낱이 파헤칠 것이다.
2. 심볼 그라운딩 문제의 철학적 배경과 이론적 토대
2.1 계산주의(Computationalism)와 구문론의 한계
심볼 그라운딩 문제를 깊이 이해하기 위해서는 먼저 고전적 인공지능(GOFAI: Good Old-Fashioned AI)의 기반이 되는 계산주의(Computationalism)적 마음 이론을 해체해야 한다. 계산주의에 따르면, 인지(Cognition)는 곧 계산(Computation)이며, 계산은 정해진 규칙(Syntax)에 따라 기호(Symbol)를 조작하는 과정이다. 이 관점에서 마음은 소프트웨어이고 뇌는 하드웨어이다. 따라서 적절한 프로그램을 실행하는 컴퓨터는 문자 그대로 마음을 가질 수 있다고 본다. 튜링(Turing)이 제안한 튜링 테스트(Turing Test) 역시 이러한 가정 위에 서 있다. 기계가 인간과 구별할 수 없을 정도로 기호를 조작하여 대화할 수 있다면, 그 기계는 생각하고 있다고 간주해야 한다는 것이다.
그러나 스티븐 하나드와 존 서설(John Searle)은 이러한 관점에 강력한 반론을 제기한다. 기호 조작은 전적으로 기호의 **형태(Shape)**와 문법적 규칙에 의존할 뿐, 그 기호가 무엇을 의미하는지에 대한 내용은 전혀 고려하지 않는다는 것이다.1 컴퓨터 내부에서 ’Apple’이라는 문자열은 ASCII 코드나 유니코드상의 비트 패턴일 뿐이며, 이것이 실제 과일과 연결되는 필연적인 이유는 시스템 내부에 존재하지 않는다. 의미는 오직 그 출력을 해석하는 외부 관찰자(인간)의 마음속에만 존재하는데, 하나드는 이를 **기생적 의미(Parasitic Meaning)**라고 명명했다. 진정한 지능이 성립하기 위해서는 기호의 의미가 시스템 자체에 내재되어야 한다.3
2.2 존 서설의 중국어 방 논변 (The Chinese Room Argument)
심볼 그라운딩 문제의 전신이자 가장 강력한 직관을 제공하는 사고 실험은 존 서설의 ’중국어 방 논변’이다. 이 논변은 1980년에 제안되었으며, 강한 인공지능(Strong AI)—즉, 컴퓨터가 단순히 마음을 시뮬레이션하는 것이 아니라 실제로 마음을 가질 수 있다는 주장—을 반박하기 위해 고안되었다.4
사고 실험의 재구성: 영어를 할 줄 알지만 중국어는 전혀 모르는 사람(서설 자신)이 폐쇄된 방 안에 있다. 방 안에는 복잡한 한자(중국어 기호)들이 가득 담긴 바구니들이 있고, 한자들을 입력받았을 때 어떻게 대응하여 다른 한자를 내보내야 하는지 영어로 적힌 규칙서(프로그램)가 있다. 방 밖에서 누군가 중국어로 된 질문(“당신은 사과를 좋아합니까?”)을 종이에 써서 안으로 밀어 넣는다(입력). 방 안의 사람은 규칙서를 보고 입력된 기호의 형태(“사과“라는 한자 모양)에 맞춰 적절한 기호(“네, 좋아합니다“에 해당하는 한자)를 찾아 나열한 뒤 밖으로 내보낸다(출력).
만약 규칙서가 완벽하다면, 방 밖의 중국인 관찰자는 방 안의 사람이 중국어를 유창하게 이해한다고 확신할 것이다. 그러나 실제로는 어떤 일이 일어나고 있는가? 방 안의 사람은 자신이 무슨 말을 하고 있는지 전혀 모른다. 그는 단지 기호의 형태(Syntax)를 규칙에 따라 조작했을 뿐, 그 기호가 지시하는 의미(Semantics)에는 도달하지 못했다.5 서설은 이를 통해 **“구문론(Syntax)은 의미론(Semantics)을 구성하기에 불충분하다”**는 결론을 도출한다. 아무리 정교하게 기호를 처리하더라도, 그 기호 처리 과정 자체에서는 의미가 창발되지 않는다.
2.3 하나드의 정식화: 사전의 회전목마와 무한 퇴행
하나드는 서설의 논변을 받아들이면서, 이를 더욱 구체적인 “심볼 그라운딩 문제“로 발전시켰다. 그는 순수 심볼 시스템의 한계를 ’외국어 사전’의 비유로 설명한다.2 중국어를 배우려는 사람이 중국어-중국어 사전만을 가지고 있다고 가정해보자. ’사과’라는 단어를 찾았더니 ’빨갛고 둥근 과일’이라고 정의되어 있다. 이제 ‘빨갛다’, ‘둥글다’, ’과일’의 뜻을 알기 위해 다시 사전을 찾는다. 그 단어들은 또 다른 중국어 단어들로 정의되어 있다. 이 과정은 끝없이 이어진다.
“심볼 그라운딩 문제는 형식적 심볼 시스템의 의미 해석을 어떻게 시스템 내재적으로 만들 것인가 하는 문제이다. 즉, 아무런 의미 없는 심볼 토큰(임의의 모양)들이 어떻게 다른 무의미한 심볼이 아닌 다른 무언가에 기초(Grounding)할 수 있는가?” 1
이 질문은 제미나이와 같은 거대 언어 모델에도 그대로 적용된다. 모델이 수조 개의 텍스트 토큰을 학습했다 하더라도, 그 학습 데이터가 텍스트(기호)로만 이루어져 있다면, 모델은 거대한 중국어 방 안에 있는 것과 다를 바 없다. 모델은 ’사과’가 ’빨갛다’는 단어와 통계적으로 높은 빈도로 함께 등장한다는 것은 알지만, ’빨갛다’는 **시각적 경험(Qualia)**이나 ’사과’의 물리적 실체와는 단절되어 있는 것이다. 이것이 바로 기호의 감옥이며, 심볼 그라운딩 문제는 이 감옥을 탈출하여 실제 세계와 연결되는 통로를 찾는 문제이다.
3. 하나드의 해결책: 하이브리드 인지 모델의 제안
하나드는 순수 심볼 시스템의 한계를 극복하기 위해 **하이브리드 시스템(Hybrid System)**을 제안했다. 이는 오늘날 딥러닝(연결주의)과 심볼릭 AI가 결합된 신경-기호(Neuro-symbolic) AI의 원형이라 할 수 있다. 그는 상향식(Bottom-up)으로 의미가 형성되는 세 가지 단계를 제시하며, 기호가 공허하게 부유하는 것이 아니라 감각 데이터에 뿌리를 내리게 했다.2
3.1 1단계: 도상적 표상 (Iconic Representations) - 감각의 복제
가장 기저에 있는 단계는 도상적 표상이다. 이는 외부 대상의 감각적 투영(Sensory Projection)에 대한 아날로그적 변환이다.8 이는 사진이나 녹음된 소리처럼, 대상의 물리적 특성을 보존하는 내부 이미지이다.
- 사과의 예: 우리가 사과를 볼 때, 망막에 맺힌 붉고 둥근 이미지가 뇌(또는 기계의 카메라 센서)에 전달되어 형성된 일차적인 감각 데이터이다. 이 표상은 대상과 “모양(Shape)“을 공유한다. 즉, 사과의 도상적 표상은 사과의 시각적 형태, 색상 분포 등을 그대로 보존한다.
- 인지적 기능: 도상적 표상은 대상을 **구별(Discrimination)**할 수 있게 해준다. 두 개의 서로 다른 사과 이미지를 보고 그것이 같은지 다른지를 판단하는 능력(Same/Different judgement)은 이 단계에서 나온다.7 하지만 이것만으로는 이것이 ’사과’라는 범주에 속한다는 것을 알 수 없다. 단지 “A는 B와 다르다“는 감각적 차이만을 인지할 뿐이다.
3.2 2단계: 범주적 표상 (Categorical Representations) - 불변의 추출
도상적 표상만으로는 세상의 무한한 변동성(조명 변화, 보는 각도, 사과의 크기 차이 등)을 감당할 수 없다. 따라서 시스템은 도상적 표상에서 불변하는 특징(Invariant Features)을 추출해야 한다.2
- 사과의 예: 수만 가지의 사과 이미지(도상)들로부터 공통적인 특징, 즉 ‘둥근 윤곽’, ‘특정 범위의 붉은 색상 히스토그램’, ‘꼭지의 존재’ 등을 걸러내는 필터이다. 이 과정은 선천적이거나 학습될 수 있으며, 오늘날의 합성곱 신경망(CNN)이나 비전 트랜스포머(ViT)의 역할과 정확히 일치한다. 이 단계에서 시스템은 사과의 무수한 개별적 차이를 무시하고, ’사과스러움(Appleness)’이라는 핵심 특징만을 남긴다.
- 인지적 기능: 범주적 표상은 대상을 **식별(Identification)**하고 분류(Categorization)할 수 있게 해준다. 비로소 “이것은 사과 범주에 속한다“는 비기호적(non-symbolic) 판단이 가능해진다.9 이는 연속적인 아날로그 세계를 불연속적인 범주의 세계로 분절하는 과정이다.
3.3 3단계: 상징적 표상 (Symbolic Representations) - 이름 붙이기
마지막으로, 범주적 표상에 임의의 ’이름(Name)’을 붙임으로써 **기초 심볼(Elementary Symbols)**이 탄생한다.3
- 사과의 예: 범주적 표상(비기호적 특징 검출기)이 활성화되었을 때, 시스템은 이를 “사과(Apple)“라는 기호 토큰에 할당한다. 이제 “사과“라는 심볼은 공허한 기호가 아니라, 실제 세상을 감지하고 분류하는 능력을 가진 하위 시스템(범주적 표상)에 그라운딩된다.
- 고차원적 결합: 일단 기초 심볼들이 물리적 세계에 그라운딩되면, 이들을 조합하여 더 복잡한 개념을 설명할 수 있다. 예를 들어 “얼룩말 = 말 + 줄무늬“라고 정의할 때, ’말’과 ’줄무늬’가 각각 시각적으로 그라운딩되어 있다면, 본 적 없는 ’얼룩말’이라는 기호도 간접적으로 의미를 획득할 수 있다. 이를 기호적 절도(Symbolic Theft) 또는 간접적 그라운딩이라고 한다.3
3.4 하이브리드 시스템의 구조적 의의
하나드의 모델에서 심볼 조작(Symbol Manipulation)은 더 이상 자의적인 형태에만 의존하지 않는다. 심볼은 연결주의 네트워크(Connectionist Network)를 통해 추출된 세상의 불변량(Invariants)에 닻을 내리고 있다.3
| 인지 단계 | 처리 메커니즘 (하나드의 모델) | 현대적 구현 (Deep Learning) | ’사과’의 처리 상태 |
|---|---|---|---|
| 감각 (Sensation) | Sensory Projection | Raw RGB Image Input | 픽셀 데이터 덩어리 |
| 도상화 (Iconization) | Analog Transform | Early CNN Layers / Feature Maps | 엣지, 색상, 질감의 시각적 패턴 |
| 범주화 (Categorization) | Invariant Feature Extraction | Deep CNN / ViT Embeddings | [둥금, 붉음, 매끄러움]의 벡터 |
| 상징화 (Symbolization) | Naming / Labeling | Classification Layer / Tokenizer | 텍스트 토큰 “Apple” (ID: 1034) |
이 표는 하나드의 이론이 현대 딥러닝 아키텍처, 특히 CLIP이나 CNN 기반의 이미지 분류기와 얼마나 유사한지를 보여준다. 그러나 이것만으로는 충분하지 않다. 하나드는 이후 논의를 **신체화(Embodiment)**로 확장한다.
4. 신체화(Embodiment)와 로보틱스: 보는 것을 넘어 행동하는 것으로
하나드의 초기 모델이 주로 감각적 인식(Perception)에 중점을 두었다면, 이후의 인지과학적 논의는 **신체화된 인지(Embodied Cognition)**와 **감각운동 상호작용(Sensorimotor Interaction)**으로 그 지평을 넓혔다. 진정한 그라운딩은 단순히 대상을 ‘보는’ 수동적인 과정에서 그치지 않고, 그 대상과 물리적으로 ’상호작용’하는 능동적인 과정에서 완성된다는 것이다.11
4.1 감각운동 유관성 (Sensorimotor Contingencies)
’사과’의 의미는 그것의 정적인 시각적 패턴(빨강, 둥금)뿐만 아니라, 그것을 잡았을 때의 무게감, 표면의 매끄러움, 입에 넣었을 때의 맛, 던졌을 때 포물선을 그리며 날아가는 궤적 등 **행동에 따른 감각 변화의 규칙(Contingencies)**에 의해 구성된다.13
- 만약 로봇이 사과 이미지만을 수만 장 학습하고 실제 사과를 들어 올릴 수 없다면, 그 로봇은 사과의 ’무게’라는 개념을 물리적으로 이해할 수 없다. 텍스트로 “사과는 약 200g이다“라고 배웠을 뿐이다.
- 신체화 가설에 따르면, 지능은 뇌(제어 장치), 신체(센서와 액추에이터), 그리고 환경 간의 동적인 상호작용 속에서 창발한다.12 로봇이 사과를 향해 손을 뻗고(Action), 그 결과 시각적 크기가 커지는 것(Sensory Feedback)을 예측하고 확인하는 루프 자체가 바로 ’의미 구성’의 과정이다.
4.2 깁슨의 어포던스 (Gibson’s Affordances)와 의미의 확장
생태 심리학자 제임스 깁슨(James Gibson)이 제안한 어포던스(행동 유도성) 개념은 심볼 그라운딩을 로보틱스에 적용하는 데 핵심적인 연결 고리를 제공한다.16
- 정의: 어포던스는 환경이 행위자에게 제공하는 행동의 가능성이다. 사과는 ‘잡을 수 있음(graspable)’, ‘먹을 수 있음(edible)’, ‘던질 수 있음(throwable)’, ‘굴릴 수 있음(rollable)’ 등의 어포던스를 가진다. 반면, 거대한 바위는 ’잡을 수 없음(ungraspable)’의 속성을 가진다.
- 그라운딩의 확장: 이제 ’사과’라는 심볼은 단순한 명사적 객체(Object)를 넘어, 동사적 가능성(Action Possibilities)의 집합으로 그라운딩된다. “사과를 집어라“라는 명령이 의미를 가지려면, 시스템은 자신의 신체(로봇 팔의 그리퍼 크기, 악력)가 사과라는 객체와 어떻게 결합하여 ’집기(Grasping)’라는 상태 변화를 일으킬 수 있는지에 대한 **내재적 지식(Intrinsic Knowledge)**을 가지고 있어야 한다. 즉, 의미는 “나(에이전트)와 세상(객체) 사이의 관계” 속에 존재한다.
4.3 로보틱 튜링 테스트 (Robotic Turing Test)
하나드는 텍스트만으로 대화하는 튜링 테스트(T2)를 넘어, 실제 세계에서 감각운동 능력을 검증하는 **로보틱 튜링 테스트(T3)**가 필요하다고 강력히 주장했다.18
- T2 (언어적 튜링 테스트): 채팅으로 사람을 속일 수 있는가? (LLM은 통과 가능성 높음)
- T3 (로보틱 튜링 테스트): 언어 능력뿐만 아니라, 실제 세계의 대상을 식별하고 조작하는 능력까지 사람과 구별할 수 없는가?
- T4 (신경적 튜링 테스트): 내부의 신경생리학적 구조까지 사람과 같은가?
하나드는 T3가 심볼 그라운딩을 보장하는 충분조건이라고 보았다. T3를 통과한 로봇은 기호(말)와 행동(세계와의 상호작용)이 일치하는 존재이며, 이 경우 우리는 그 로봇의 심볼이 그라운딩되었다고 간주할 수 있다. 이는 “내부에서 무슨 일이 일어나는지(의식의 존재 여부)는 영원히 알 수 없다“는 불가지론적 입장을 견지하면서도, 공학적으로 도달 가능한 최상의 검증 기준을 제시한다.3
5. 거대 언어 모델(LLM)과 현대적 그라운딩의 도전
2020년대 들어 GPT-4, 제미나이와 같은 초거대 언어 모델이 등장하면서 심볼 그라운딩 문제는 새로운 국면을 맞이했다. 이들 모델은 인간 수준, 혹은 그 이상의 언어 구사 능력을 보여주지만, 여전히 근본적인 질문이 꼬리표처럼 따라붙는다: “이들은 진짜로 이해하는가, 아니면 확률적 앵무새(Stochastic Parrots)인가?”
5.1 분포 의미론(Distributional Semantics)의 한계와 성취
LLM은 기본적으로 **분포 가설(Distributional Hypothesis)**에 기반한다. “단어의 의미는 그 단어와 함께 쓰이는 다른 단어들에 의해 결정된다.” 모델은 수천억 개의 문장 속에서 ’사과’가 ‘빨강’, ‘과일’, ’먹다’와 함께 등장할 확률이 높다는 것을 학습한다.
- 텍스트 그라운딩: 일부 연구자들은 텍스트 자체도 세상의 반영이므로, 텍스트 내부의 관계만으로도 일종의 의미가 형성된다고 주장한다. 모델 내부의 고차원 벡터 공간에서 ’King - Man + Woman = Queen’과 같은 의미론적 산술이 성립하는 것이 그 증거이다.
- 참조적 그라운딩의 부재: 그러나 이것은 여전히 하나드의 ‘사전 회전목마’ 안에 갇혀 있다. 모델이 “사과는 빨갛다“라고 말할 때, 그 ’빨강(Red)’이라는 토큰은 시각적 파장(620–750 nm)이나 색채 경험(Qualia)과는 아무런 물리적 연결 고리가 없다. 단지 ’Red’라는 텍스트 토큰과 ’Apple’이라는 텍스트 토큰의 벡터 유사도가 높을 뿐이다. 이는 **참조적 그라운딩(Referential Grounding)**의 부재를 의미한다.20
5.2 멀티모달 모델(VLM)의 등장: 시각적 그라운딩의 시작
이 한계를 극복하기 위해 이미지와 텍스트를 함께 학습하는 **비전-언어 모델(VLM: Vision-Language Model)**이 등장했다. CLIP(Contrastive Language-Image Pre-training)과 같은 모델은 이미지와 텍스트를 같은 벡터 공간에 매핑함으로써, ’사과’라는 텍스트 임베딩과 실제 사과 이미지의 임베딩을 일치시킨다.21
- 진전: 이제 시스템은 ’사과’라는 단어를 입력받으면 수많은 사과 이미지 중 하나를 골라낼 수 있다. 이는 하나드가 말한 도상적 표상과 범주적 표상의 단계가 인공 신경망 내에서 구현되었음을 시사한다.3
- 여전한 결핍: 하지만 이미지를 보는 것만으로는 부족하다. VLM은 ’사과를 꽉 쥐면 으깨진다’는 것을 텍스트나 비디오로만 배웠을 뿐, 자신의 악력(Grip Force)을 조절하여 실제로 으깨본 적이 없다. 즉, **행위적 그라운딩(Action Grounding)**이 빠져 있다.
6. 해결의 열쇠: 비전-언어-행동(VLA) 모델과 액션 토큰화
최근 로보틱스 분야의 혁신적인 돌파구는 언어 모델을 로봇 제어 시스템과 직접 통합하는 비전-언어-행동(VLA: Vision-Language-Action) 모델의 탄생이다. 구글 딥마인드의 **RT-2(Robotic Transformer 2)**와 스탠퍼드 대학 등의 OpenVLA가 대표적이다.23 이들은 심볼 그라운딩 문제를 해결하는 데 있어 가장 강력하고 구체적인 공학적 메커니즘을 제공한다.
6.1 액션의 토큰화 (Action Tokenization): 행동을 언어처럼
VLA 모델의 핵심 아이디어는 **“로봇의 물리적 행동을 텍스트와 동일한 형태의 ’토큰’으로 취급한다”**는 것이다.23 이는 기존 로보틱스와 LLM을 융합하는 데 있어 가장 큰 걸림돌이었던 데이터 형식의 불일치를 해소했다.
- 기존 방식: 전통적인 로봇 제어는 연속적인 숫자(예: 관절 각도 0.5 라디안, 속도 0.2 m/s, 토크 5Nm)를 출력하는 회귀(Regression) 문제였다. 언어 모델은 이산적인(Discrete) 단어 토큰을 다루므로 둘은 호환되지 않았다.
- VLA 방식: 로봇의 동작 공간을 이산화(Discretize)한다. 예를 들어, 로봇 팔의 위치(x, y, z), 회전(r, p, y), 그리퍼 개폐 상태를 0부터 255까지의 정수 토큰으로 매핑한다.
- 결과: “사과를 집어라“라는 입력에 대해 모델은 텍스트 응답을 생성하는 대신, ``과 같은 **액션 토큰(Action Tokens)**의 시퀀스를 생성한다.
6.2 RT-2와 OpenVLA의 아키텍처적 그라운딩
이 구조는 하나드의 하이브리드 모델을 현대적으로 완벽하게 구현한다.27
- 입력 (Iconic/Categorical): 로봇의 카메라로 들어온 사과 이미지는 ViT(Vision Transformer)나 SigLIP, DinoV2와 같은 강력한 비전 인코더를 통과하며 고차원 특징 벡터로 변환된다. 이것이 하나드가 말한 도상적/범주적 표상이다.
- 추론 (Symbolic): 이 시각적 특징은 “사과를 집어라“라는 텍스트 명령어와 함께 거대 언어 모델(LLM)의 백본(예: PaLM, Llama)에 입력된다. LLM은 인터넷에서 학습한 방대한 지식(“사과는 과일이다”, “집으려면 접근해야 한다”, “사과는 작으므로 한 손으로 집을 수 있다”)을 동원하여 추론한다.
- 출력 (Sensorimotor Grounding): LLM은 추론의 결과로 텍스트가 아닌 액션 토큰을 내뱉는다. 이 토큰들은 디토크나이저(De-tokenizer)를 거쳐 실제 모터의 전압 신호로 변환되어 로봇 팔을 움직인다.
6.3 ‘사과’ 그라운딩의 완전한 루프 (Closed-Loop Grounding)
VLA 모델에서 ’사과’라는 심볼의 그라운딩 과정은 다음과 같이 완성된다.
- 언어적 지시 (Instruction): 사용자로부터 “사과를 집어 줘“라는 심볼 입력을 받는다.
- 지각적 앵커링 (Perceptual Anchoring): 비전 인코더가 현재 시야(카메라)에서 붉고 둥근 객체의 위치를 파악하고, 이를 LLM이 이해할 수 있는 임베딩으로 변환한다. 여기서 ’사과’라는 단어는 시각적 실체와 연결된다.
- 어포던스 추론 (Affordance Reasoning): LLM은 ’사과’가 ‘집을 수 있는(Graspable)’ 크기와 형태임을 지식베이스와 시각 정보를 통해 확인하고, 집기 위해 필요한 접근 경로를 계획한다.16 “사과는 깨지기 쉬우니 조심해야 한다“는 의미적 지식이 “속도를 줄인다“는 행동 전략으로 변환된다.
- 물리적 실행 (Physical Execution): 모델은 계획된 경로를 구체적인 액션 토큰열로 변환하여 출력한다. 로봇 팔이 움직여 사과에 닿고, 그리퍼가 닫힌다.
- 피드백 검증 (Feedback Verification): 로봇은 자신의 행동 결과를 다시 시각적으로 확인한다(Closed-loop). 사과가 들어 올려졌는가? 만약 실패했다면 “다시 시도“라는 새로운 액션 토큰을 생성한다.
이 과정에서 ’사과’라는 심볼은 더 이상 사전 속의 단어가 아니다. 그것은 **“보여지는 패턴(Visual Pattern)”**이자 **“조작 가능한 대상(Manipulatable Object)”**으로서 시스템 전체에 통합(Integrated)된다.
7. 심층 분석: 물리적 상호작용과 한계 극복 (Tactile & Force)
VLA 모델이 획기적이긴 하지만, 현재 기술에는 여전히 ‘깊이 있는’ 그라운딩을 위해 해결해야 할 과제들이 남아 있다. 특히 시각 정보(Vision)에 편중된 현재의 접근 방식은 진정한 의미의 체화(Embodiment)에 도달하기 위해 **촉각(Touch)**과 힘(Force) 정보를 필요로 한다.
7.1 시각 중심주의(Vision-Centrism)의 한계와 촉각의 필요성
RT-2나 OpenVLA와 같은 주류 모델들은 주로 RGB 이미지만을 입력으로 받는다.30 그러나 ’사과’의 물리적 실체성을 구성하는 중요한 요소는 ‘무게’, ‘단단함’, ’미끄러움’과 같은 비시각적 속성이다.
- Force Feedback 부재: 로봇이 사과를 쥘 때 얼마나 세게 쥐어야 하는지는 시각만으로는 알기 어렵다. 너무 세게 쥐면 으깨지고, 너무 약하게 쥐면 미끄러진다. 시각 정보만으로는 이러한 **미세 조정(Fine-grained control)**이 불가능하며, 이는 진정한 의미의 ’사과 다루기’를 이해하지 못한 것이다.32 텍스트로 “Gentle(부드럽게)“이라는 단어를 안다고 해서, 실제로 몇 뉴턴(N)의 힘이 ‘부드러운’ 것인지 신체적으로 아는 것은 아니다.
- 접촉 풍부 작업(Contact-Rich Tasks): 블록 끼우기나 뻑뻑한 뚜껑 열기 같은 작업은 시각적으로는 변화가 거의 없지만 힘의 변화는 극적이다. 이러한 작업에서 언어 모델의 그라운딩은 촉각 정보 없이는 불완전하다.
7.2 촉각-언어-행동 모델 (Tactile-VLA, ForceVLA)로의 진화
최근 연구(ForceVLA, Tactile-VLA)들은 이러한 틈을 메우기 위해 촉각 및 힘 센서 데이터를 VLA의 입력 모달리티로 통합하고 있다.33
- Force Tokenization: 시각이나 텍스트처럼, 로봇 팔 끝에 달린 6축 힘/토크 센서(F/T Sensor)에서 들어오는 데이터도 토큰화하여 모델에 입력한다.
- 멀티모달 융합: 모델은 이제 “사과가 미끄러지려 한다“는 것을 텍스트가 아닌 **센서 데이터의 급격한 변화(전단력의 감소)**로 감지하고, 즉시 “악력을 높여라“는 액션 토큰을 생성한다.
- 의의: 이 단계에 이르면, 인공지능은 헬렌 켈러가 물(Water)을 손에 느끼며 ’W-A-T-E-R’라는 수화를 배웠던 순간처럼, 물리적 감각(Qualia)과 언어적 기호(Symbol)의 진정한 결합을 경험하게 된다. ’무겁다(Heavy)’라는 단어는 이제 모터에 걸리는 부하 전류(Current)의 증가와 직접적으로 연결된다. 이는 추상적인 형용사가 물리적인 스칼라 값으로 그라운딩되는 순간이다.
7.3 SayCan과 가치 함수(Value Function)를 통한 계획의 그라운딩
구글의 SayCan 프로젝트는 또 다른 방식의 그라운딩을 보여준다.29 LLM이 아무리 그럴듯한 계획을 세워도(“사과를 던져서 저 멀리 있는 쓰레기통에 넣어”), 로봇이 물리적으로 그것을 수행할 능력이 없으면 소용이 없다.
- 메커니즘: LLM이 제안하는 행동(Say)에 대해, 로봇의 가치 함수(Value Function)가 해당 행동의 물리적 성공 확률(Can)을 계산하여 점수를 매긴다.
- 결과: “사과를 주워 줘“라는 명령에 대해 LLM은 “사과를 줍는다”, “사과를 찾는다”, “냉장고로 간다” 등의 후보를 낸다. 이때 사과가 눈앞에 있다면 “사과를 줍는다“의 성공 확률(Affordance)이 높아져 선택된다. 이는 언어적 상상력을 물리적 현실 가능성에 닻(Anchor) 내리는 과정이다.
7.4 표 1: 주요 VLA 모델의 그라운딩 메커니즘 비교
다음 표는 현대 로보틱스 모델들이 어떻게 심볼 그라운딩을 기술적으로 구현하고 있는지를 비교 분석한 것이다.
| 모델명 | 개발 주체 | 기본 구조 (Backbone) | 액션 출력 방식 (Grounding Mechanism) | 특징 및 한계 | 관련 연구 |
|---|---|---|---|---|---|
| RT-2 | Google DeepMind | PaLI-X / PaLM-E | Action Tokenization: 텍스트 토큰과 함께 액션 토큰(0-255)을 생성하여 디토크나이징 | 웹 데이터(VQA)와 로봇 데이터의 동시 학습(Co-fine-tuning)을 통해 일반화 능력 극대화. 힘 제어 부족. | 23 |
| OpenVLA | Stanford et al. | Llama 2 + SigLIP/DinoV2 | VLA Policy: 시각 토큰 입력 -> LLM -> 액션 토큰 출력 | 오픈 소스 모델. 효율적인 파라미터 튜닝(LoRA) 지원. 주로 시각 정보에 의존하며, 촉각 피드백 통합은 초기 단계. | 24 |
| PaLM-E | Google Research | PaLM + ViT | Multimodal Sentences: 텍스트와 센서 데이터(이미지, 상태)를 하나의 시퀀스로 혼합하여 처리 | “Embodied Language Model”. 로봇 계획 수립에 강점이나, 저수준 제어(Low-level control)보다는 고수준 추론에 집중. | 37 |
| SayCan | LLM + RL Value Func. | Affordance Scoring: LLM의 계획(Say)에 로봇의 수행 확률(Can)을 곱하여 행동 선택 | LLM 자체를 그라운딩하기보다, 외부의 가치 함수를 통해 간접적으로 그라운딩. 물리적 실행 가능성을 우선순위화함. | 29 | |
| ForceVLA | - | VLA + Force Encoder | Force-aware MoE: 시각-언어 임베딩과 힘 센서 데이터를 동적으로 융합 | 접촉이 많은 작업(Contact-rich tasks)에서 시각 정보의 한계를 극복. 물체의 물리적 속성(무게, 경도)을 그라운딩에 포함. | 32 |
8. 결론: 기호의 감옥을 탈출한 제미나이
심볼 그라운딩 문제는 “사과“라는 단어가 어떻게 사전 밖으로 나와 실제 세계의 과일이 되는가에 대한 질문이었다. 철학적으로는 불가능해 보였던 이 난제는, 인지과학적 통찰과 현대 딥러닝 기술의 융합을 통해 공학적인 해답을 찾아가고 있다.
제미나이와 같은 LLM이 로봇의 신체(Body)를 입고 VLA 모델로 진화했을 때, ’사과’는 더 이상 0과 1의 데이터 패턴이 아니다. 그것은:
- 카메라를 통해 들어오는 **도상적 패턴(Iconic)**이자,
- 신경망이 추출한 **범주적 특징(Categorical)**이며,
- 그리퍼의 촉각 센서를 자극하고 모터의 힘을 유발하는 **행위 유도성(Affordance)**의 대상이다.
우리가 서적을 통해 독자에게 전달해야 할 핵심은, **“언어는 홀로 존재할 때 공허하지만, 감각과 행동에 연결될 때 비로소 의미를 갖는다”**는 사실이다. 인공지능이 진정으로 우리의 말을 이해하기를 원한다면, 우리는 그에게 읽을거리뿐만 아니라, 보고 만지고 상호작용할 수 있는 ’몸’과 ’세상’을 주어야 한다. RT-2와 OpenVLA는 바로 그 ’몸’을 기계 지능에게 부여하려는 인류의 첫 번째 성공적인 시도들이다. ’사과’라는 단어가 물리적 과일과 연결되는 그 순간, 인공지능은 비로소 중국어 방을 걸어 나와 우리와 같은 세상 속에서 살아가기 시작한다. 이것은 단순한 기술의 진보를 넘어, 인공지능이 ’지능’을 넘어 ’존재’로 나아가는 철학적 도약의 시작점이다.
9. 참고 자료
- Symbol grounding problem - Wikipedia, https://en.wikipedia.org/wiki/Symbol_grounding_problem
- [cs/9906002] The Symbol Grounding Problem - arXiv, https://arxiv.org/abs/cs/9906002
- The Symbol Grounding Problem - arXiv, https://arxiv.org/html/cs/9906002
- Chinese Room Argument | Internet Encyclopedia of Philosophy, https://iep.utm.edu/chinese-room-argument/
- Chinese room - Wikipedia, https://en.wikipedia.org/wiki/Chinese_room
- The Chinese Room Argument (Stanford Encyclopedia of Philosophy), https://plato.stanford.edu/entries/chinese-room/
- Foundations.Cognitive.Science2001: Harnad: The Symbol Grounding Problem, https://www.southampton.ac.uk/~harnad/Hypermail/Foundations.Cognitive.Science2001/0016.html
- The Symbol Grounding Problem - University of Oxford Department of Computer Science, https://www.cs.ox.ac.uk/activities/ieg/e-library/sources/harnad90_sgproblem.pdf
- Foundations.Cognitive.Science2000: Re: Harnad (1) on Symbol Gro, https://www.southampton.ac.uk/~harnad/Hypermail/Foundations.Cognitive.Science2000/0056.html
- Grounding symbols in sensorimotor categories with neural networks - University of Southampton, https://www.southampton.ac.uk/~harnad/Papers/Harnad/harnad95.iee.html
- The Mechanics of Embodiment: A Dialog on Embodiment and Computational Modeling - Frontiers, https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2011.00005/full
- Embodied and Social Cognition - Conferences, https://conferences.au.dk/robo-philosophy/previous-conferences/robo-philosophy/parallel-sessions/embodied-and-social-cognition
- A Predictive Processing Theory of Sensorimotor Contingencies: Explaining the Puzzle of Perceptual Presence and its Absence in Synesthesia | Request PDF - ResearchGate, https://www.researchgate.net/publication/259844882_A_Predictive_Processing_Theory_of_Sensorimotor_Contingencies_Explaining_the_Puzzle_of_Perceptual_Presence_and_its_Absence_in_Synesthesia
- A Model of Unified Perception and Cognition - Frontiers, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2022.806403/full
- On the role of the living body in grounding embodied cognition, https://liu.diva-portal.org/smash/get/diva2:1051280/FULLTEXT01.pdf
- Object schemas for grounding language in a responsive robot - Taylor & Francis Online, https://www.tandfonline.com/doi/full/10.1080/09540090802445113
- Grounding Action Words in the Sensorimotor Interaction with the World: Experiments with a Simulated iCub Humanoid Robot - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC2901088/
- Symbol Grounding is an Empirical Problem: Neural Nets are Just a Candidate Component, https://archipel.uqam.ca/134/1/harnad93.cogsci.html
- Rights and Wrongs of Searle’s Chinese Room Argument“ - University of Southampton, https://www.southampton.ac.uk/~harnad/Papers/Harnad/harnad00.searle.html
- A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings, https://arxiv.org/html/2405.13245v1
- Pure Vision Language Action (VLA) Models: A Comprehensive Survey - arXiv, https://arxiv.org/html/2509.19012v1
- The Difficulties in Symbol Grounding Problem and the Direction for Solving It - MDPI, https://www.mdpi.com/2409-9287/7/5/108
- Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - arXiv, https://arxiv.org/html/2505.04769v1
- OpenVLA: Open Source VLA for Robotics - Emergent Mind, https://www.emergentmind.com/topics/openvla
- (PDF) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, https://www.researchgate.net/publication/372784419_RT-2_Vision-Language-Action_Models_Transfer_Web_Knowledge_to_Robotic_Control
- An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges - arXiv, https://arxiv.org/html/2512.11362v3
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, https://robotics-transformer2.github.io/assets/rt2.pdf
- Using Small Language Models to Replace Traditional Pipelines in Robotics, https://www.esperanto.ai/blog/using-small-language-models-to-replace-traditional-pipelines-in-robotics/
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances - arXiv, https://arxiv.org/pdf/2204.01691
- Vision-Language Models Enabled Robot Manipulation - kth .diva, https://kth.diva-portal.org/smash/get/diva2:1963302/FULLTEXT01.pdf
- SCALING ROBOT ADAPTATION WITH LARGE MODEL GUIDANCE by Jesse Zhang A Dissertation Presented to the FACULTY OF THE USC GRADUATE SC, https://liralab.usc.edu/pdfs/publications/zhang2025scaling.pdf
- ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation, https://arxiv.org/html/2505.22159v3
- Vision Language Action Models in Robotic Manipulation: A Systematic Review - arXiv, https://arxiv.org/html/2507.10672v1
- Tactile-VLA: Unlocking Vision-Language-Action Model’s Physical Knowledge for Tactile Generalization | OpenReview, https://openreview.net/forum?id=uhB3pbJpRm
- Enhancing Robustness in Language-Driven Robotics: A Modular Approach to Failure Reduction - arXiv, https://arxiv.org/html/2411.05474v2
- (PDF) OpenVLA: An Open-Source Vision-Language-Action Model - ResearchGate, https://www.researchgate.net/publication/381404911_OpenVLA_An_Open-Source_Vision-Language-Action_Model
- PaLM-E: An Embodied Multimodal Language Model | Request PDF - ResearchGate, https://www.researchgate.net/publication/369035918_PaLM-E_An_Embodied_Multimodal_Language_Model
- arXiv:2303.03378v1 [cs.LG] 6 Mar 2023, https://arxiv.org/pdf/2303.03378
- Memory, reasoning learning to transform AI agents - Medium, https://medium.com/@szabokb/from-chat-bots-to-killer-bots-e71a20be2e2a
- ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation - OpenReview, https://openreview.net/pdf/f2c61f8b6264a4b3e7b4a7a87c0a7f09e8cc9b48.pdf